本文简要介绍来自清华大学电子工程系的一篇论文“Primitive Representation Learning for Scene Text Recognition”,此论文已发表于CVPR 2021,它提出了一种基于基元表征学习的场景文字识别方法。
常用基于深度学习的场景文字识别方法主要分为基于CNN+RNN+CTC的方法[1]和基于注意力机制的方法[2,3]两大类。这两类方法各有不足之处,例如,前者通常将CNN输出的特征图按滑动窗转换为特征序列,对不规则排列的文字图像缺乏适应能力;后者的解码器通常需要利用当前时刻之前的输出进行递归解码,速度较慢,并且容易受到注意力偏移问题的困扰[4,5]。不同于上述两类方法,本文提出一种新的基于基元表征学习的场景文字识别网络模型PREN (Primitive REpresentation Learning Network)。首先,通过全局聚合的方法从特征图中提取基元表征,基元表征可以看作描述特征图的基向量,然后通过图卷积网络(GCN)将基元表征加权转换为视觉文字表征。视觉文字表征既可以直接用于快速并行解码,也可以与基于注意力机制的模型集成,进一步提高识别性能。
图1 不同场景文字识别系统的对比。(a) 基于CNN+RNN+CTC的方法,’_’表示CTC解码中的空白符号;(b) 基于注意力机制的方法;(c) 本文提出的基元表征学习方法PREN。
基元表征学习 通过对特征图进行全局聚合得到基元表征。全局聚合的表示形式为:
其中为特征图;为全局聚合网络中第个子网络对应的映射函数,将特征图转换为隐含表征;为第个聚合权重,用于将聚合为一个向量形式的基元表征。通过设计不同的聚合权重和映射函数,本文实现了两种全局聚合器:池化聚合器和加权聚合器。
图2 两种全局聚合器。(a) 池化聚合器,直接对特征图进行卷积和全局平均池化得到基元表征。(b) 加权聚合器,特征图经过两个卷积分支,其中一个分支输出加权系数热力图,作为对另一分支输出特征图的全局聚合权重。图中#k为卷积核个数。 池化聚合器 通过全局平均池化为各通道特征图设置相等的聚合权重。对于不同的输入样本,利用池化聚合器可以得到统一的样本全局结构基元表征。其计算过程为:
加权聚合器 对样本动态学习不同聚合权重,对于不同的输入样本,利用加权聚合器可以得到不同样本特有的局部结构信息。其计算过程为:
视觉文字表征学习 通过对基元表征加权组合得到视觉文字表征。本文提出采用图卷积网络(Graph Convolutional Networks, GCN)进行视觉文字表征学习。其计算过程为:
其中,为基元表征,和为两个可学习的参数矩阵。将的基元表征矩阵看作为一个图结构的个顶点,每个顶点为一个d维向量。在常规图卷积中,矩阵B为的邻接矩阵,在本文中,矩阵B设计为维,将个基元表征转换为L个视觉文字表示向量。每个视觉文字表示向量对应一个待识别的字符。L为预设的场景文字样本中的字数上限。在训练阶段中,文本标签真值后加上符号Eos (End Of Sentence)作为结束标志,若输入图像样本中的字数小于L,则在结束符号Eos后用Padding符号将字数补齐为L个;在测试阶段中,以结束符号Eos作为预测文本结束标志,将预测文本中Eos之后的符号舍弃掉。在本文实验中,若无特殊说明,基元表征数量设为5,文本预测字数上限L设为25。
PREN模型架构 PREN包含特征提取模块和基元表征学习模块。特征提取模块采用卷积神经网络EfficientNet-B3 [6]提取多尺度特征图。基元表征学习模块实现基元表征学习和视觉文字表征学习,对不同尺度的特征图,分别采用一个池化聚合器和一个加权聚合器学习基元表征,并分别对多尺度的基元表征进行并接,再通过GCN得到视觉文字表征,然后将两种全局聚合器得到的视觉文字表征进行融合,比如直接相加等,不同融合方式的实验参见论文补充材料(Supplementary Material)。最后,通过一个全连接层及Softmax函数直接对视觉文字表征并行解码得到识别结果。PREN的模型架构如图4所示。
PREN2D:PREN + 2D注意力机制 视觉文字表征与文本嵌入特征 (Character Embeddings) 不同,它可以为注意力机制的解码过程提供全局视觉信息。本文将PREN和一个具有二维注意力机制的基准模型Baseline2D[7]通过门控单元集成在一起,构成PREN2D模型。
本文使用的基准模型Baseline2D [7]是一种Transformer [8]的改进形式。在编码器中,改进的自注意力机制为:
其中,,为特征图按元素展开的向量中的第个元素,为对应于Query,Key和Value的可学习参数矩阵,表示的邻近元素。本文中和均采用卷积,即编码器在计算注意力系数时利用了特征图中的局部空间信息。
本文在英文场景文字数据集(IIIT5k, SVT, IC03, IC13, IC15, SVTP, CUTE)和中文场景文字数据集(选自RCTW的子集)上进行了实验。
表1为英文场景文字识别的主要实验结果,训练集采用合成数据集MJSynth (MJ)和SynthText (ST)。在测试集上,PREN优于具有相同特征提取模块的CNN-LSTM-CTC模型;PREN2D优于基准模型Baseline2D。 表1. 不同模型在英文场景文字识别任务中的单词识别正确率(%)
表2对比了不同模型识别一张图像的平均运行时间。其中,PREN的识别速度比CNN-LSTM-CTC略快;与Baseline2D相比,PREN2D仅多用5.8ms。
表3对比了采用不同全局聚合方法的PREN模型性能,可以看出,结合池化聚合器和加权聚合器的模型效果更好。 表3 采用不同聚合方法的PREN模型单词识别正确率(%)
基元表征数量变化对PREN模型性能的影响如图6所示。当基元表征的数量适中(如5个)时,模型能够取得最优性能。
图6基元表征数量变化对PREN模型单词识别正确率(%)的影响 在多方向中文场景文字识别实验中,样本集包含横排文本、竖排文本等多种情况。对于竖排文本,基于CNN+RNN+CTC的模型通常会将其旋转90度作为输入,这会导致模型需要学习的字符模式具有直立和额外旋转90度的情形。与之不同的是,PREN不需要对样本进行额外旋转,就可以通过全局聚合得到兼顾横排与竖排文本的基元表征。在预处理时,PREN只需对图像根据其宽高比归一化到设定的尺寸,若宽高比大于设定阈值,则判定为横排样本,归一化尺寸为64x256;否则判定为竖排样本,归一化尺寸为256x64。表4对比了不同模型在多方向中文场景文字识别实验中的性能,样本集为选自RCTW的子集,大致分为横排和竖排两部分。其中,PREN优于CNN-LSTM-CTC模型,PREN2D优于基准模型Baseline2D。表4 多方向中文场景文字识别实验中不同模型的文本行识别正确率(%)
在池化聚合器中,两个输入样本图像对应于5个基元表征的特征图(全局平均池化之前,特征图按通道取平均用于可视化显示)如图8所示。对于5个基元表征,不同输入图像对应于同一基元表征的特征图是相似的,表明池化聚合器能够学习统一的样本全局结构基元表征。
在加权聚合器中,对应于5个基元表征计算所用的加权系数热力图如图9所示,字符区域对应的权重相对较高,表明加权聚合器可以得到不同样本特有的局部结构信息。
Baseline2D和PREN2D对于同一样本生成的注意力系数如图10所示,其中,Baseline2D把最后一个字母“N“的右半部分误识为”I“,而PREN2D避免了此问题。
图10 不同模型生成的注意力系数比较
针对场景文字识别任务,不同于常用的CNN+RNN+CTC和注意力机制框架,本文提出了基于基元表征学习的新方法。该方法通过全局聚合学习基元表征,并进一步通过GCN转换为视觉文字表征。视觉文字表征既可以用于直接并行解码,也可以结合基于注意力机制的模型进一步提高识别性能。通过在中英文场景文字识别数据集上的实验,验证了本文所提出方法的有效性。
https://openaccess.thecvf.com/content/CVPR2021/papers/Yan_Primitive_Representation_Learning_for_Scene_Text_Recognition_CVPR_2021_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2021/supplemental/Yan_Primitive_Representation_Learning_CVPR_2021_supplemental.pdfGitHub地址 (PREN的源码,不含PREN 2D):https://github.com/RuijieJ/pren
[1] Baoguang Shi, Xiang Bai, and Cong Yao. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Trans. Pattern Anal. Mach. Intell., 39(11):2298–2304, 2017.[2] Canjie Luo, Lianwen Jin, and Zenghui Sun. MORAN: A multi-object rectified attention network for scene text recognition. Pattern Recog., 90:109–118, 2019.[3] Baoguang Shi, Mingkun Yang, Xinggang Wang, et al. ASTER: An attentional scene text recognizer with flexible rectification. IEEE Trans. Pattern Anal. Mach. Intell., 41(9):2035–2048, 2019.[4] Zhanzhan Cheng, Fan Bai, Yunlu Xu, et al. Focusing attention: Towards accurate text recognition in natural images. In ICCV, pages 5076–5084, 2017.[5] Tianwei Wang, Yuanzhi Zhu, Lianwen Jin, et al. Decoupled attention network for text recognition. In AAAI, pages 135-151, 2020.[6] Mingxing Tan and Quoc V. Le. EfficientNet: Rethinking model scaling for convolutional neural networks. In ICML, pages 6105–6114, 2019.[7] Ruijie Yan, Liangrui Peng, Shanyu Xiao, et al. MEAN: Multi-element attention network for scene text recognition. In ICPR, pages 6850-6857, 2021.[8] Ashish Vaswani, Noam Shazeer, Niki Parmar, et al. Attention is all you need. In NeurIPS, pages 5998–6008, 2017. 撰稿:闫睿劼编排:高 学审校:连宙辉发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。